Например, Бобцов

Метод построения интерпретируемых скрытых марковских моделей для задачи поиска связываемых участков пептидов в последовательностях белков

Аннотация:

Введение. Решение задачи предсказания иммунного ответа организма на чужеродные фрагменты белковых последовательностей, обработанные клеткой, является ключевым этапом разработки персонализированных вакцин от рака. Отбор пептидов, участвующих в иммунном ответе, представляет собой сложный многоступенчатый процесс фильтрации исходных последовательностей для презентации их фрагментов на поверхности клетки. Наиболее изученной является задача предсказания одного из этапов такой фильтрации — вероятности связывания пептидов с молекулами главного комплекса гистосовместимости. Современные методы предсказания данного этапа обычно основаны на алгоритмах, использующих искусственные нейронные сети, что не позволяет в должной мере интерпретировать результаты работы моделей. Одним из методов решения проблемы является использование интерпретируемых скрытых марковских моделей. В работе выполнен анализ задачи предсказания связывающей способности и предложен метод построения интерпретируемых моделей, учитывающих ограничения и требования предметной области. Метод. Разработан метод построения, обучения и интерпретации скрытых марковских моделей для каждого класса молекул. Построение и обучение моделей основано на поддержании архитектуры модели, способной извлекать и визуализировать связываемый участок пептида. Интерпретация возможна благодаря анализу графа модели. Основные результаты. Предложенный метод протестирован в задаче обучения модели, позволяющей помимо предсказания получать позицию связываемого участка пептида и распределение аминокислот в нем. Обучены модели предсказания для двух разновидностей молекул с использованием данных связывания. Распределения аминокислот связываемого участка совпадают с распределениями состояний модели. Паттерны последовательностей участков, извлеченные с помощью обученных моделей для двух наборов пептидных данных, соответствуют паттернам из открытых источников, что подтверждает успешную апробацию метода. Обсуждение. Интерпретируемые модели лучше описывают предметную область задачи и помогают сделать выводы о характеристиках пептидов, основываясь на информации, извлеченной из модели. Эта информация позволит исследователям лучше понять остальные шаги процессинга пептидов при иммунном ответе: изучить взаимосвязи между ними и произвести перенос знаний из моделей, обученных для одного этапа, на другие. Таким образом, предлагаемый метод построения позволит обучать модели в условиях недостатка обучающих данных.

Ключевые слова:

Статьи в номере